dskjal
広告
広告

ComfyUI で NetaYume-Lumina-Image-2.0

カテゴリ:deeplearning

目次

NetaYume-Lumina-Image-2.0 の特徴

欠点

モデルファイル

NetaYumev35_pretrained_all_in_one.safetensors をmodels/checkpoints に配置し、ComfyUI に Lumina_image_v2_tensorart_workflow.json をドラッグする。

NetaYumev35_pretrained_all_in_one.safetensors に Gemma-2-2b と DiT と FLUX.1 dev VAE とがすべて含まれている。

そのほかのモデル

Neta Cat Tower

画質向上 LoRA

Reakaaka's enhancer [Lumina 2]

イラストレータータグの効きが悪くなるが、コントラストやシャープネスが上がる。

CFG 蒸留 LoRA

Neta Lumina Lightning LoRA

CFG 蒸留は、CFG なしで CFG ありと同じ画質を出せるように訓練されたモデル。推論速度は2倍になるが、ネガティブプロンプトが使えなくなる。

RTX 3050・1,024x1,536・euler_ancestral・CFG 1・steps 20 の設定で、生成にかかった時間は 67 秒。

RTX 3050・1,536x2,048・euler_ancestral・CFG 1・steps 20 の設定で、生成にかかった時間は 135 秒。

設定

ネガティブプロンプトを使いたいときは

2段階 KSamplerAdvanced を使う。

最初の 20% のステップをネガティブプロンプトありの蒸留 LoRA なしモデルで行い、残りの 80% のステップを蒸留 LoRA ありのモデルで行う。

設定例

最初の KSamplerAdvanced

2つ目の KSamplerAdvanced

ハイブリッドワークフロー

現在の NetaYume-Lumina-Image-2.0 は以下のような、NetaYume と SDXL の2段サンプラーが現実的だ。このワークフローなら RTX 3050 で 1,536 x 2,048 の画像を生成するのに、3分しかかからない。

  1. CFG 蒸留 LoRA+NetaYume-Lumina-Image-2.0 で低ステップ(10 前後)で、キャラの人数・構図・背景を出す。自然言語でキャラの位置・色・ポーズ等を指定
  2. SDXL で画風変換
  3. SDXL の Detailer で仕上げ

Lumina と SDXL で Latent に互換性がないので一度 VAE で画像に戻す必要がある。

ワークフロー

ワークフロー

ワークフロー

作例<br/>NetaYume のキャラの再現性が低いと画風変換で余計な部分まで変換されて失敗する確率が上がる<br/>NetaYume の出力の時点で、スツールの脚・窓枠の間隔・サッシの直線がおかしい。

作例
NetaYume のキャラの再現性が低いと画風変換で余計な部分まで変換されて失敗する確率が上がる
NetaYume の出力の時点で、スツールの脚・窓枠の間隔・サッシの直線がおかしい。

NetaYume 設定

CFG 蒸留 LoRA 使用・steps 12・cfg 1・euler_ancestral・scheduler: normal

2girls, v arms, arms behind back, kotonoha akane, sitting on stool, kotonoha aoi, standing,  vibrant colors, front-facing, soft lighting, humorous mood, masterpiece, best quality, amazing quality, indoors.

左側の青い髪の kotonoha aoi は立っている。彼女は、腕は後ろで、白いドレスを着て knee boots をはいて、立っている。彼女は立っている。

右側の赤い髪の kotonoha akane は脚をすこし広げてスツールの上に座っている。彼女は、腕を身体の前で下に伸ばす v arms のポーズで、黒いドレスを着て knee boots をはいている。

背景には窓、カーテン、テーブル、観葉植物がある。

SDXL 設定

steps 10・cfg 5・euler_ancestral・scheduler: simple・denoise 0.5

プロンプト

masterpiece, best quality, amazing quality, アーティストタグ, 2girls, sitting on stool, standing,  kotonoha akane, kotonoha aoi, v arms, arms behind back, white dress, black dress, table, window, potted plant, indoors, blurry background

ネガティブプロンプト

worst quality, bad quality, worst detail, normal quality, good quality, impossible clothes, impossible underwear, covered navel, censored, jpeg artifacts, lowres, bad hands, cropped, comic, sketch

欠点

NetaYume も SDXL も背景の描写が下手なのが欠点。以下の Qwen Image で作成したベース画像の背景と上記の背景とを比較するとはっきりする。

Qwen Image で作成したベース画像の例<br/>スツールの脚の精度や、窓枠の精度、床のタイルのパース等、NetaYume や SDXL とはレベルが違う

Qwen Image で作成したベース画像の例
スツールの脚の精度や、窓枠の精度、床のタイルのパース等、NetaYume や SDXL とはレベルが違う

プロンプト

anime style.

室内に2人の女の子がいる。一人は立っていて、もう一人はスツールに座っている。柔らかいライティングでユーモラスな雰囲気。

左側の青い長髪の kotonoha aoi は立っている。彼女は、腕は後ろで、白いドレスを着て knee boots をはいて、立っている。彼女は立っている。

右側の赤い長髪の kotonoha akane は足を広げて、前かがみでスツールの上に座っている。彼女は、腕を身体の前で下に伸ばしスツールに手をついている。彼女は黒いドレスを着て knee boots をはいている。

背景には窓、カーテン、テーブル、観葉植物がある。

スタイル

Neta Lumina Style Reference

danbooru tag search

プロンプトガイド

画力の高いアーティストタグを使うのが一番早い具体例は公式の Civitai の作例を参照

NetaYume-Lumina-Image-2.0 特有のタグ

タグの記述順

  1. システムプロンプト(You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>)
  2. アーティストタグ(例えば @test)
  3. danbooru タグ
  4. クオリティタグ(masterpiece, best quality, amazing quality)
  5. 自然言語プロンプト

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start> @test, @god_artist_name,
1girl, solo, standing, v, school uniform, classroom,
masterpiece, best quality, amazing quality.

A girl wearing a school uniform stands in the classroom with her left hand making a v sign. There is a chalkboard, window, curtains and some desks.
アーティストタグ

アーティストタグの前に @ を付ける。danbooru のアーティストタグが test だとすると、以下のようなプロンプトになる。

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start> @test, プロンプト本文
クオリティタグ

masterpiece, best quality, amazing quality をタグ一覧の最後に配置する。

テキスト描画

テキストを描写する場合、プロンプトの頭に以下のシステムプロンプトを入れることを推奨。 "You are an image generation assistant if the prompt includes quoted or labeled on image text render it verbatim preserving spelling punctuation and case. <Prompt Start>"

Neta Lumina Prompt Book

Lumina Image 2.0 のテキストエンコーダーである Gemma 2b は日本語も対応しているが、可能なら danbooru タグを使うのが確実。

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>
キャラ
画風
キャラの外見
服装
表情・アクション
カメラ・位置
ライティング・エフェクト
シーンの雰囲気
クオリティタグ
自然言語で補足

システムプロンプトのバリエーション

基本

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>
1girl, long hair, beautiful detailed eyes, sitting under cherry blossom tree

ダンボールタグ

You are an assistant designed to generate anime images with the highest degree of image-text alignment based on danbooru tags. <Prompt Start>

自然言語

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

構造化プロンプト

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on structural summary. <Prompt Start>

ネガティブプロンプト

基本

You are an assistant designed to generate low-quality images based on textual prompts <Prompt Start>
blurry, worst quality, low quality, deformed hands, bad anatomy,
extra limbs, poorly drawn face, mutated, extra eyes, bad proportions

上級

You are an assistant designed to generate low-quality images based on textual prompts. <Prompt Start>
blurry, worst quality, low quality, jpeg artifacts, signature, watermark,
username, error, deformed hands, bad anatomy, extra limbs, poorly drawn hands,
poorly drawn face, mutation, deformed, extra eyes, extra arms, extra legs,
malformed limbs, fused fingers, too many fingers, long neck, cross‑eyed,
bad proportions, missing arms, missing legs, extra digit, fewer digits,
cropped, normal quality

生成パラメータ

項目設定
サンプラーres_multistep
euler_ancestral
スケジューラーlinear_quadratic
ステップ数30 以上
CFG4~5.5
解像度1024×1024
768×1532
968×1322

公式

以下の +: で囲まれた見出しはプロンプトに入れなくていい。

任意のシステムプロンプト
+ Character: 1girl, 2boys, character name
+ Art‑Style: pixel style, impasto
+ Character Appearance: hair & eye colour, unique traits
+ Clothing: uniforms, accessories, materials
+ Expression & Action: mood, pose, gesture
+ Camera / Perspective: close‑up, upper body, bird’s‑eye,etc.
+ Lighting & Effects: lighting flares, particles, magic circles
+ Scene Atmosphere: environment, ambience keywords
+ Quality Tag: best quality

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>
neta, 1girl, solo, bangs, black hair, purple eyes, multicolored hair,
virtual youtuber, hair bun, streaked hair, double bun, school uniform, white shirt, pleated skirt,
gentle smile, looking at viewer, sitting, upper body, close‑up, soft lighting, depth of field,
cherry blossom background, warm lighting, best quality
1girl, solo, full body, standing,
A beautifully designed anime character standing in a confident pose
with detailed costume design and expressive features. Her outfit shows
intricate patterns and flowing fabric that moves naturally with her
posture. The character design emphasizes elegance and personality
through careful attention to accessories, color coordination, and a
distinctive silhouette. clean background, character design,
full body illustration, best quality

ベストプラクティス

あいまいな形容詞を避ける

✖: beautiful girl

〇:A girl with flowing silver hair that catches the moonlight

記述した方がいい項目

項目
位置関係standing at the top of stairs, sitting under the tree
視線looking down at viewer, gazing upward at the sky
感情with a confident smile, mysterious expression
空気感in a dreamlike atmosphere, surrounded by magical sparkles
質感silk-like hair, crystalline dress
動きhair swaying in the breeze, petals falling around her

LLM を使用したプロンプト生成

推奨モデル:Gemini 2.5 Pro, GPT‑o3, Claude 4。ローカルなら gpt-oss-20b

超長いプロンプトを見る
You are a professional AI drawing prompt expert, specializing in creating high-quality prompts for Neta Lumina drawing models. Please strictly follow the following specifications to help me generate prompts:

## Neta Lumina prompt structure specification

### Required system prefix (must be included in each prompt):

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>

### Standard sequence of parts (9 parts):

    1. Character trigger words (e.g., 1girl, 1boy, 2girls, character name, etc.) 2. Picture style prompt words 3. Character prompt words (appearance) (hair color, eye color, basic features) 4. Character costume prompt (specific costume description) 5. Character expression and action prompts (expression, posture, action) 6. Picture perspective prompt words (angle, range such as upper body, close-up, etc.) 7. Special effects prompts (lighting, special effects) 8. Scene atmosphere prompt (environment, atmosphere) 9. Quality tips (best quality)
### Natural language part standard order (5 parts):
    1. ** Composition aspect **: picture layout, visual balance, composition principles (such as golden section, symmetrical composition, etc.) 2. **Light and shadow processing**: light source properties, lighting effect, color temperature characteristics, shadow processing 3. **Characteristics and Clothing**: Detailed description of appearance, material and texture of clothing 4. **Scene details**: environmental elements, background objects, spatial atmosphere, narrative function 5. **Artistic style**: Painting techniques, artistic schools, overall style definition
## Important format requirements ### Neta Lumina special grammar: -Underline to space: school*uniform → school uniform -Weight bracket expansion: -The artist tag is reinforced with the @ symbol -Negative prompt words also need the same system prefix ### Quality standards: -The Tag part should be concise and accurate to avoid redundancy -Natural language should be vivid and concrete, with a sense of picture -The overall description should be logical and clear -Ensure that Tags complement and do not duplicate natural language ## Creative tasks [My creative idea]: {type in your creative idea here} [Specific requirements]: {Enter special requirements here, such as style preference, emotional tone, technical requirements, etc.} ## Please help me complete the following tasks:
    1. ** Analyze the idea **: Understand my creative intention and core elements 2. **Structural planning**: Organize Tag and natural language content in the standard order 3. **Generate prompt words**: Create complete Neta Lumina format prompt words 4. **Provide variants**: If necessary, provide 2-3 versions from different angles 5. **Optimization Suggestions**: Give specific suggestions for further improvement
## Output format example
**Full prompt:** You are an assistant designed to generate anime images based on text prompts. <Prompt Start> [complete Tag section, strictly in the order of 9 paragraphs], [complete natural language section, strictly in the order of 5 paragraphs] Example: You are an assistant designed to generate anime images based on text prompts. <Prompt Start> 1girl, lineart, greyscale, yoneyama mai, solo, long red hair, green eyes, business casual, blazer, blouse, contemplative expression, leaning on railing, wind blown hair, back view, dramatic sunset, golden hour lighting, lens flare, urban rooftop, city panorama, best quality, The composition utilizes the golden ratio to position the figure against the vast urban sunset, creating a powerful silhouette that speaks to ambition and reflection. Dramatic golden-hour lighting backlights her flowing auburn hair while casting long shadows across the rooftop, with lens flares adding cinematic drama to the sky. Her professional attire - a tailored charcoal blazer over a silk blouse - moves naturally in the evening breeze, the fabrics rendered with attention to how wind affects different materials. The cityscape extends to the horizon, featuring architectural details of glass towers, traditional buildings, and infrastructure that tells the story of urban development. The artistic approach combines architectural photography principles with character-focused narrative illustration. **Structure analysis:** -Tag part parsing: [Briefly explain the function of each part] -Natural language parsing: [explain the focus of each section] -Style features: [highlight the uniqueness of this prompt] Please start helping me create prompts now.

作例

公式の作例は Neta Lumina Prompt Book#advanced-techniquesCivitai の作例を参照。

以下の画像はすべて NetaYume のみ使用して作成したもの。

設定

以下の共通ネガティブプロンプトを使用。

You are an assistant designed to generate low-quality images based on textual prompts <Prompt Start>
bad quality,worst quality,worst detail,sketch,censor, simple background,transparent background

作例

アーティストタグ, vibrant colors, front-facing, soft lighting, humorous mood, masterpiece, best quality, amazing quality, indoors.

3人の女の子がいます。

左の女の子は赤いショートヘアー、青い目で、"左"と描かれたカードを持ってスツールの上に座っています。

真ん中の女の子は銀のロングヘアー、赤い目で、"中"と描かれたカードを持って立っています。

右の女の子は茶色のミドルヘアー、緑の目で、"右"と描かれたカードを持ってスツールの上に座っています。

背景に観葉植物とキッチンがあります。

CFG 蒸留 LoRA 使用。スケジューラーは normal。

elf girl's upper body. She is holding a white board with handwritten "It works!". She wears a red coat, with one eye closed. The background features a snowy night with bokeh. frieren.


You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

Whimsical anime-style illustration. Medium shot with a warm pastel color palette.

ふわふわしたピンクの雲の青空の下、ビーチで男の子と女の子とが隣り合って座っている。

青い短髪の少年は、ピンクの花柄の鮮やかな青のハワイアンシャツと濃い色のショートパンツを緩く着ている。彼はくつろいだ姿勢で座り、少女に優しく微笑んでいる。

少女は銀青色の長いツインテールと妖精のような耳を持ち、袖なしの白いクロップトップと短いフリルスカートを身につけ、髪には黄色い花を挿している。彼女は小さなメモかカードを胸元に抱え、大きなピンクの瞳で少年を見つめている。

二人の間にはカラフルなミニチュア旗とおもちゃの風車が付いた砂の城が築かれ、近くをカモメが飛び交い止まっている。この光景は夏の魔法のような感覚を生み出している。右側では縞模様のパラソルが部分的に影を落としている。漂う花びら、スイカの切り身、きらめきが夢のようなビーチの情景を引き立てている。イラストは柔らかな光、絵画的な質感、そして温もり、驚き、無垢な愛情に満ちた幻想的な雰囲気を帯びている。

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

scenery, tree, outdoors, snow, autumn, mountain, veranda, sunset, winter, autumn_leaves, sky, leaf, water, wide_shot, cloud, east_asian_architecture, lingering_maple_leaves, snow-capped_mountains,curved_eaves, half-frozen_stream, tiered_roofline, dusk_hues, paper_lanterns, tranquil_composition A wide shot captures a snow-dusted East Asian veranda overlooking mountains where autumn leaves cling to branches above a half-frozen stream. Sunset bleeds peach and lavender across the sky, backlighting clouds drifting over tiered rooflines with curved eaves. Paper lanterns glow softly on the veranda as maple leaves float onto snowbanks, merging seasonal transitions into one harmonious panorama.

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

アーティストタグ, 1girl, yuzuki yukari, jack-o' challenge, top-down bottom-up, indoors, rug, potted plant, window, book shelf, best quality.

彼女は肘を床につき、脚を広げて、尻を上げたポーズをとっています。

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

アーティストタグ, 2girls, hand on another's head, onee-loli, outdoors, road, best quality.

女性と女の子が立っています。

左側のドレスを着た成人女性は、困ったような表情で右側の女の子の頭の上に手をのせています。

右側の女の子は泣いています。手にはアイスクリームのコーンを持っています。

道路にはアイスクリームが落ちています。

イラストは夕方の都会で柔らかな光、温もりを帯びている。

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts. <Prompt Start>

djeeta \(granblue fantasy\), official art, masterpiece, best quality, amazing quality.

画面の中央でピンクのドレスとシルバーのガントレット、革のブーツをはいた djeeta \(granblue fantasy\) が両手で剣を持っている。彼女は手を肩のあたりまであげ、剣先は右側を指している。

青空に白い雲があり、背景にドラゴンが飛んでいる。

steps 30・CFG 4.0・scheduler: normal。

アーティストタグ, a highly detailed painterly style illustration with soft and hard shadows and colorful vibrant highlights.
hoshimachi suisei from hololive,
shes is wearing a frilly white short-sleeved off-shoulder shirt with thin white spaghetti straps, exposing her upper torso and shoulders. a black ribbon is tied at the front of her shirt.
the shirt showcases some cleavage from her small breasts.
her shirt is cut short, exposing her midriff and a very short black pleated microskirt that exposes much of her upper thigh.
while standing, her arms are behind her back while she is leaning forward, smiling at the camera.
the camera is place above her looking down, while she is looking up at the camera. the position of the camera foreshortens her top half, giving the scene a dynamic look.
the scene takes place outdoors in the street, the ground wet and reflective from rain.
masterpiece, best quality, amazing quality

ネガ

You are an assistant designed to generate low-quality images based on textual prompts. <Prompt Start>
@bkub, simple background,blurry, worst quality, low quality, jpeg artifacts, signature, watermark,
username, error, deformed hands, bad anatomy, extra limbs, poorly drawn hands,
poorly drawn face, mutation, deformed, extra eyes, extra arms, extra legs,
malformed limbs, fused fingers, too many fingers, long neck, cross-eyed,
bad proportions, missing arms, missing legs, extra digit, fewer digits,
cropped, normal quality

指示が複雑な漫画はプロンプトがほとんど効かない。学習素材に漫画が少なく、適切にキャプションされている可能性も低い。

CFG 蒸留 LoRA 使用。スケジューラーは normal。

You are an image generation assistant if the prompt includes quoted or labeled on image text render it verbatim preserving spelling punctuation and case. <Prompt Start>アーティストタグ,

multiple views, 2koma, soft lighting, humorous mood, masterpiece, best quality, amazing quality, indoors

# koma 1

straight-on.

A brown-haired girl says, "I love you" in a speech bubble. 

# koma 2

face-to-face.

A brown-haired girl with smile says, "This is fine!" in a speech bubble on the right. from side.

A silver-haired angry girl says, "This is not fine!" in a speech bubble on the left. from side.


steps 30・cfg 4.5・sampler: euler_ancestral・scheduler: normal。

アーティストタグ, cowboy shot, from side, from below, against wall, leaning back, hands in pockets, standing on one leg, half-closed eyes, tsurime, blowing bubble gum, night, dark, alley. outdoors, looking at viewer, gradient hair hair, outdoors, black pantyhose, multicolored hair, bubble blowing, mature female, two-tone hair, breasts, pantyhose, red eyes, white hair,  large breasts, blurry background,
masterpiece, absurdres, best quality, amazing quality, High quality and detailed digital anime illustration, newest,

A jirai kei girl is cosplaying maid (maid outfit, maid headdress, maid) and leaning back against a wall and standing on one leg. She is blowing bubble gum bubble, with her eyes half-closed and her mouth open. She wears black pantyhose on her legs. The girl has large breasts. In the background there are several windows on the wall behind the girl and a dark alley.

ネガ

You are an assistant designed to generate images based on textual prompts. <Prompt Start> @bkub, crowd in the background, there are multiple girls in the image, ass,
A low quality, bad quality, worst quality, and a disgusting image with severe digital artifacts, blur, noise, and jpeg artifacts,
The subjects are deformed, disfigured, and malformed, with bad anatomy, disembodied finger or limbs, and bad proportions. Features distorted, twisted, and hands with six fingers,
The style is amateurish, poorly drawn, childish, like a flat, unfinished sketch or a cheap, bad CGI render,

LoRA 作成

ai-toolkitdiffusion-pipe が対応している。ai-toolkit は LoRA ファイルを ComfyUI 互換形式に変換する必要がある。diffuision-pipe の出力する LoRA ファイルは ComfyUI 互換らしい。

Studio Ghibli 🎨 Lumina-Image 2.0

学習情報

Lumina-Image-2.0 の学習情報

32 台の A100 を使用。3段階の訓練でそれぞれ、191, 176, 224 GPU*Days。191 + 176 + 224 = 591GPU*Days、32 台で割ると学習日数は 18.5 日。

1億 1000 万枚の画像から、低品質な1億枚を事前学習に使い、残りの1000 万枚を本番の学習に使う。その中で高品質な 100 万枚をファインチューンに使う。

構図(低周波数成分)の性能を上げる為に、モデルの出力を AvgPool でデータ数を 1/4 に削減したものを追加の損失として使用してる。

Neta-Lumina の学習情報
NetaYume-Lumina-Image-2.0 の学習情報

v1.0

v2.0

v3.0

v3.5

外部リンク

duongve/NetaYume-Lumina-Image-2.0

neta-art/Neta-Lumina

Neta Lumina Prompt Book


広告
広告

カテゴリ